12. Pandas-数据框拼接

⭐ 为什么需要数据拼接?

在实际金融分析中,数据往往分散在多个来源:

  • 不同时期的数据分开存储(如月度、季度)
  • 不同市场的数据分别管理(如沪市、深市)
  • 不同指标的数据需要整合(如价格、成交量)

Pandas 提供了三大拼接工具:concatmergejoin

⭐ 三大拼接工具一览

函数 类比 适用场景
pd.concat() 物理拼接(上下/左右) 结构相同的数据堆叠
pd.merge() SQL JOIN 基于共同列合并不同表
.join() merge 的简化版 基于索引快速合并

⭐ 平台练习代码

Listing 1
# ⚠️ 平台原始代码 - 请原样输入至教学平台(注释除外),平台才会判定答案正确
import pandas as pd  # 导入Pandas数据分析库
# 从Excel文件读取数据存入df_price
df_price=pd.read_excel('https://huoran.oss-cn-shenzhen.aliyuncs.com/20230306/xlsx/1632680830600503296.xlsx',index_col=0,sheet_name='Sheet1')
#df1 包含前 100 行,df2 包含剩余的行
df1=df_price.iloc[:100,:] 
df2=df_price.iloc[100:,:]  # 按位置索引提取从Excel文件读取数据存入df_price
# 从Excel文件读取数据存入tencent_vol
tencent_vol=pd.read_excel('https://huoran.oss-cn-shenzhen.aliyuncs.com/20230306/xlsx/1632680830600503296.xlsx',index_col=0,sheet_name='Sheet2')

df_concat=pd.concat([df1,df2],axis=0)  # 拼接数据框并存入df_concat
print(f'2022年有{df_concat.shape[0]}条交易数据')  # 输出2022年有

# 合并数据框并存入df_merge
df_merge=pd.merge(left=df_price['腾讯控股'],right=tencent_vol,right_index=True,left_index=True)
stock_data=df_merge.loc['2022-06-01',:]  # 按标签索引提取数据
print(f"这个交易日的收盘价为{stock_data[0]}元,成交量为{stock_data[2]/10000}万股")  # 输出这个交易日的收盘价为
2022年有246条交易数据
这个交易日的收盘价为360.4元,成交量为2692.0272万股

⭐ concat — 轴向拼接的核心函数

pd.concat() 用于沿指定轴将多个数据框拼接在一起

关键参数:

  • objs:要拼接的数据框列表
  • axis:0 = 垂直拼接(行),1 = 水平拼接(列)
  • join'inner'(交集)或 'outer'(并集,默认)
  • ignore_index:是否忽略原索引重新编号
  • keys:创建层次化索引标识来源

⭐ concat 垂直拼接示意图

concat 垂直拼接示意图 两个数据框 df1 和 df2 通过 pd.concat 沿 axis=0 方向上下堆叠 df1 前100行 shape: (100, N) df2 剩余行 shape: (M, N) concat axis=0 df1 部分 df2 部分 df_concat

⭐ concat 拼接不同时期数据

Listing 2
# =============================================================================
# 题目:concat拼接不同月份的股价数据
# =============================================================================
# 在金融时间序列分析中,经常需要将不同时期的数据(如月度数据、季度数据)
# 拼接成更长时间序列以便进行趋势分析。本示例演示如何使用concat()将1月
# 和2月的股价数据垂直拼接成Q1(第一季度)完整数据。

# ==================== 创建1月数据 ====================
# 使用字典创建DataFrame,包含价格和成交量两列
jan_data = pd.DataFrame({
    'price': [10, 11, 12],                    # 股价数据,表示3个交易日的收盘价
    'volume': [1000, 1100, 1200]              # 成交量数据,单位可能是手或股
}, index=pd.date_range('2024-01-01', periods=3))  # 创建日期范围索引,从2024-01-01开始的3天

# ==================== 创建2月数据 ====================
# 创建2月的交易数据,结构相同
feb_data = pd.DataFrame({
    'price': [13, 14, 15],                    # 2月的股价数据,显示上升趋势
    'volume': [1300, 1400, 1500]              # 2月的成交量,呈现增长态势
}, index=pd.date_range('2024-02-01', periods=3))  # 2月日期索引

# ==================== 垂直拼接两月数据 ====================
# pd.concat()默认axis=0,将feb_data追加到jan_data下方
# 拼接后形成包含1月和2月数据的Q1时间序列
q1_data = pd.concat([jan_data, feb_data])  # 垂直拼接,自动对齐列名
print("Q1数据:")  # 打印标题
print(q1_data)    # 输出完整的Q1数据,包含6个交易日
Q1数据:
            price  volume
2024-01-01     10    1000
2024-01-02     11    1100
2024-01-03     12    1200
2024-02-01     13    1300
2024-02-02     14    1400
2024-02-03     15    1500

⭐ merge — 数据库风格连接

pd.merge() 类似 SQL 的 JOIN 操作,基于共同列或索引合并数据

关键参数:

  • leftright:要合并的两个数据框
  • how:连接方式('inner''outer''left''right'
  • on:用于连接的列名
  • left_index / right_index:是否使用索引作为连接键

⭐ merge 四种连接方式

merge 四种连接方式对比 展示 inner、outer、left、right 四种 JOIN 方式的集合关系 交集 inner 只保留匹配行 并集 outer 保留所有行 左全 left 保留左表所有行 右全 right 保留右表所有行 = 左表 (left) = 右表 (right)

⭐ merge 合并价格与成交量数据

Listing 3
# =============================================================================
# 题目:merge函数基于索引合并价格与成交量数据
# =============================================================================
# 在金融分析中,经常需要将不同数据表的信息整合在一起,例如将股价数据与
# 成交量数据合并,以便进行量价分析。本示例演示如何使用pd.merge()函数
# 基于日期索引将腾讯控股的收盘价和成交量数据进行内连接合并。

# ==================== 定义数据来源URL ====================
url = 'https://huoran.oss-cn-shenzhen.aliyuncs.com/20230306/xlsx/1632680830600503296.xlsx'  # 与上方代码块使用相同的Excel文件地址

# ==================== 读取成交量数据 ====================
# 从同一Excel文件的Sheet2读取成交量数据
tencent_vol = pd.read_excel(url, index_col=0, sheet_name='Sheet2')

# ==================== 基于索引进行内连接合并 ====================
# pd.merge()实现类似SQL的JOIN操作:
# left:左表,取df_price中的'腾讯控股'列(收盘价)
# right:右表,取tencent_vol(成交量数据)
# left_index=True/right_index=True:使用左右两表的索引(日期)作为连接键
# how='inner':内连接,只保留两个表中索引都存在的日期
df_merge = pd.merge(
    left=df_price['腾讯控股'],  # 左表:腾讯控股收盘价序列
    right=tencent_vol,           # 右表:成交量数据
    left_index=True,             # 布尔值,指定使用左表的索引作为连接键
    right_index=True,            # 布尔值,指定使用右表的索引作为连接键
    how='inner'                  # 连接方式,'inner'表示只保留匹配的行
)

# ==================== 输出合并后的数据 ====================
print("合并后的数据:")  # 打印标题
print(df_merge.head())  # 显示前5行数据,包含收盘价和成交量

# ==================== 查询特定日期的交易数据 ====================
# 使用.loc通过日期索引定位特定行的数据
stock_data = df_merge.loc['2022-06-01', :]  # 获取2022-06-01这一行的所有列数据
print(f"\n2022-06-01的交易数据:")  # 打印日期标题
print(f"  收盘价: {stock_data[0]:.2f}元")  # 输出收盘价,保留2位小数
print(f"  成交量: {stock_data[2]/10000:.2f}万股")  # 输出成交量,转换为万股单位
合并后的数据:
             腾讯控股  涨跌(元)    成交量(股)
交易日期                              
2022-12-30  334.0   -1.2  27211337
2022-12-29  335.2    9.0  30087456
2022-12-28  326.2    6.0  24188394
2022-12-23  320.2   -3.6  15502697
2022-12-22  323.8   12.8  24251750

2022-06-01的交易数据:
  收盘价: 360.40元
  成交量: 2692.03万股

⭐ join — 基于索引的简化合并

.join()merge() 的便捷方法,专门用于基于索引合并

与 merge 的区别:

  • 语法更简洁:df1.join(df2) 即可
  • 默认使用索引作为连接键
  • 默认执行左连接(how='left'

⭐ join 合并收盘价与成交量

Listing 4
# =============================================================================
# 题目:join函数简化索引合并操作
# =============================================================================
# join()是merge()的便捷方法,专门用于基于索引合并数据框,语法更加简洁。
# 本示例演示如何使用join()方法将腾讯控股的收盘价与成交量数据合并,
# 相比merge(),join()更适合处理基于索引的合并场景。

# ==================== 使用join进行索引合并 ====================
# df_price[['腾讯控股']]:从价格数据框中提取'腾讯控股'列
# .join(tencent_vol):将成交量数据框基于索引合并到收盘价数据框
# how='inner':内连接,只保留两个表中索引都存在的日期
df_join = df_price[['腾讯控股']].join(  # 调用左表的join方法
    tencent_vol,                        # 要合并的右表(成交量数据)
    how='inner'                         # 连接方式,内连接保留匹配的索引
)

# ==================== 输出合并结果 ====================
print("使用join合并:")  # 打印提示信息
print(df_join.head())  # 显示前5行数据,包含收盘价和成交量
使用join合并:
             腾讯控股  涨跌(元)    成交量(股)
交易日期                              
2022-12-30  334.0   -1.2  27211337
2022-12-29  335.2    9.0  30087456
2022-12-28  326.2    6.0  24188394
2022-12-23  320.2   -3.6  15502697
2022-12-22  323.8   12.8  24251750

⭐ 应用场景:多市场数据整合

Listing 5
# =============================================================================
# 题目:concat拼接沪市和深市的股票数据
# =============================================================================
# 在A股市场中,股票分为上海证券交易所(沪市)和深圳证券交易所(深市)。
# 实际分析中常需要将两个市场的数据整合在一起进行跨市场比较分析。
# 本示例演示如何使用concat()的keys参数为拼接后的数据添加层次化索引,
# 标识每条数据来源于哪个市场。

# ==================== 创建沪市股票数据 ====================
# 构造包含股票代码、名称和价格的DataFrame
sh_data = pd.DataFrame({
    'code': ['600000.SH', '600036.SH'],      # 股票代码,.SH后缀表示沪市
    'name': ['浦发银行', '招商银行'],        # 股票名称
    'price': [10.5, 45.2]                    # 股价,单位为元
})

# ==================== 创建深市股票数据 ====================
# 构造深市股票数据,结构与沪市相同
sz_data = pd.DataFrame({
    'code': ['000001.SZ', '000002.SZ'],      # 股票代码,.SZ后缀表示深市
    'name': ['平安银行', '万科A'],           # 股票名称
    'price': [12.3, 8.5]                     # 股价,单位为元
})

# ==================== 垂直拼接并添加市场标识 ====================
# pd.concat()的keys参数为拼接后的数据创建层次化索引
# keys=['沪市', '深市']:为两个数据框分别添加标签
# names=['市场']:指定层次化索引的级别名称
all_stocks = pd.concat([sh_data, sz_data], keys=['沪市', '深市'], names=['市场'])
print("两市股票:")  # 打印标题
print(all_stocks)    # 输出包含市场标识的合并数据,可通过层次化索引区分市场
两市股票:
           code  name  price
市场                          
沪市 0  600000.SH  浦发银行   10.5
   1  600036.SH  招商银行   45.2
深市 0  000001.SZ  平安银行   12.3
   1  000002.SZ   万科A    8.5

⭐ 三大工具选择指南

场景 推荐函数 原因
结构相同的数据上下/左右拼接 pd.concat() 简单高效
基于共同列合并不同表 pd.merge() 功能最全,类似 SQL
基于索引快速合并 .join() 语法最简洁
需要层次化索引标识来源 pd.concat(keys=...) 支持 keys 参数

⭐ 本章小结

核心知识点回顾:

  • pd.concat():轴向拼接,axis=0 垂直,axis=1 水平
  • pd.merge():数据库风格连接,支持四种 JOIN 方式
  • .join():基于索引的便捷合并方法
  • 拼接前应确认列名一致性索引对齐
  • 金融分析中常用于整合多时期、多市场数据